Home » Lumea digitală » Generatoarele de text plagiază într-un mod ce depășește simplul „Copy & Paste”

Generatoarele de text plagiază într-un mod ce depășește simplul „Copy & Paste”

Publicat: 21.02.2023

Studenții ar trebui să se gândească de două ori înainte de a folosi ChatGPT pentru a-și realiza proiectele. Generatoarele de text plagiază conținutul în mai multe moduri, potrivit unei echipe de cercetare conduse de Penn State University, din SUA, care a efectuat un studiu pentru a examina direct fenomenul.

„Plagiatul este de mai multe tipuri. Am vrut să vedem dacă modelele de limbaj fac doar copy & paste sau recurg la forme mai sofisticate de plagiat fără să își dea seama”, a spus Dongwon Lee, profesor de științe și tehnologie a informației la Penn State.

Cercetătorii s-au concentrat pe identificarea a trei forme de plagiat: verbatim, sau copierea textului cuvânt cu cuvânt; parafrazarea, adică reformularea și restructurarea conținutului fără a cita sursa originală; și plagiatul ideii, sau folosirea ideii principale dintr-un text fără o citare corespunzătoare.

Oare generatoarele de text plagiază?

Cercetătorii au construit un algoritm pentru detectarea automată a plagiatului și l-au testat pe GPT-2 al OpenAI, deoarece datele de antrenament ale modelului de limbă sunt disponibile online, permițându-le cercetătorilor să compare textele generate de chatbot cu cele 8 milioane de documente utilizate pentru pre-antrenare.

Oamenii de știință au folosit 210.000 de texte generate pentru a vedea dacă generatoarele de text plagiază, testând modele lingvistice pre-instruite, dar și modele lingvistice ajustate (modele instruite în detaliu pentru a se concentra pe anumite domenii tematice).

În acest caz, echipa a ajustat trei modele lingvistice pentru a se concentra pe documente științifice, pe articole academice legate de COVID-19 și pe înregistrările de brevete. Oamenii de știință au folosit un motor de căutare open-source pentru a selecta primele 10 documente de instruire cele mai asemănătoare cu fiecare text generat și au modificat un algoritm de aliniere a textului existent pentru a detecta mai bine cazurile de plagiat verbatim, de parafrazare și de plagiat de idei.

Descoperirile pot avea implicații grave

Echipa a descoperit că generatoarele de text plagiază folosind toate cele trei tipuri de plagiat și că, cu cât setul de date și parametrii utilizați pentru a antrena modelul sunt mai mari, cu atât plagiatul a apărut mai des.

Cercetătorii au mai remarcat și că modelele de limbaj ajustate au redus plagiatul verbatim, dar au crescut cazurile de parafrazare și de plagiat de idei. În plus, oamenii de știință au identificat cazuri în care modelul lingvistic a expus informații private ale indivizilor prin toate cele trei forme de plagiat, notează TechXplore.

Cercetătorii își vor prezenta concluziile la ACM Web Conference din 2023, care are loc în perioada 30 aprilie-4 mai în Austin, Texas.

„Oamenii urmăresc modele lingvistice mari, deoarece cu cât modelul devine mai mare, abilitățile de generare cresc”, spune Jooyoung Lee, doctorandă la Colegiul de Științe și Tehnologie a Informației din cadrul Penn State și autoare principală a studiului.

„În același timp, ei pun în pericol originalitatea și creativitatea conținutului din corpusul de instruire. Aceasta este o constatare importantă”, a subliniat ea.

Chatboții ar trebui folosiți cu o mai mare atenție

Studiul evidențiază nevoia de mai multe cercetări privind generatoarele de text și întrebările etice și filosofice pe care acestea le ridică, spun cercetătorii.

„Chiar dacă rezultatele pot fi atrăgătoare, iar modelele lingvistice pot fi distractiv de utilizat și par productive pentru anumite sarcini, nu înseamnă că sunt practice”, a spus Thai Le, profesor asistent de informatică și știința informației la Universitatea din Mississippi care a început să lucreze la proiect ca doctorand la Penn State.

„În practică, trebuie să avem grijă de problemele etice aduse de generatoarele de text și de abordarea drepturilor de autor”, a continuat el.

Faptul că generatoarele de text plagiază nu este surprinzător

Deși rezultatele studiului se aplică doar pentru GPT-2, procesul automat de detectare a plagiatului pe care l-au creat cercetătorii poate fi aplicat și pe modelele de limbaj mai noi, cum ar fi ChatGPT, pentru a determina dacă și cât de des plagiază aceste modele conținutul de instruire. Testarea pentru plagiat, totuși, depinde de dezvoltatorii care fac datele de instruire accesibile pentru public, au spus cercetătorii.

Studiul actual îi poate ajuta pe cercetătorii AI să construiască modele de limbaj mai robuste, fiabile și responsabile în viitor, spun cercetătorii. Deocamdată, aceștia îndeamnă persoanele să fie precaute atunci când folosesc generatoare de text.

Faptul că aceste modele de limbaj plagiază nu este neobișnuit, spune Dongwon Lee. „Dezvoltatorii au învățat generatoarele de text să imite scrierile umane fără să le învețe în mod corespunzător să nu plagieze. E timpul să le învățăm să citeze sursele, dar mai este mult de lucru”, a cocluzionat profesorul.

Vă recomandăm să citiți și:

Google a anunțat că lucrează la competitorul lui ChatGPT, un chatbot numit „Bard”

Prima „mină” de Bitcoin alimentată nuclear va începe operațiunile în acest an

Mănușa VR aduce un simț mai realist al atingerii în metavers

Microsoft a creat dispozitivul care îți poate clona vocea după doar trei secunde de audio

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Urme de dinozaur, descoperite pe o piatră dintr-o școală din Australia
Urme de dinozaur, descoperite pe o piatră dintr-o școală din Australia
Deși sunt „dezamăgiți”, britanicii anunță că nu vor riposta la tarifele impuse de SUA
Deși sunt „dezamăgiți”, britanicii anunță că nu vor riposta la tarifele impuse de SUA
Cuie înfipte în craniile oamenilor, ritualul șocant din Epoca Fierului
Cuie înfipte în craniile oamenilor, ritualul șocant din Epoca Fierului
Neutrinii ar putea fi cheia pentru studierea nucleului Soarelui
Neutrinii ar putea fi cheia pentru studierea nucleului Soarelui
Așa s-a scris ISTORIA! Legendarul Cristian Gațu, dezvăluiri în premieră despre cum a trecut prin furcile morții la JO 1972 și cum l-a pedepsit pe Gigi Becali
Așa s-a scris ISTORIA! Legendarul Cristian Gațu, dezvăluiri în premieră despre cum a trecut prin furcile morții la ...
Oamenii de știință au găsit 128 de sateliți noi în jurul lui Saturn
Oamenii de știință au găsit 128 de sateliți noi în jurul lui Saturn
Masculii unei specii de caracatițe paralizează femelele înainte de împerechere pentru a nu fi mâncați
Masculii unei specii de caracatițe paralizează femelele înainte de împerechere pentru a nu fi mâncați
Primele pisici domestice au ajuns în China în urmă cu 1.400 de ani, arată un studiu
Primele pisici domestice au ajuns în China în urmă cu 1.400 de ani, arată un studiu
Scurtă istorie a OZN-urilor: Suntem cu adevărat vizitați de extratereștri?
Scurtă istorie a OZN-urilor: Suntem cu adevărat vizitați de extratereștri?
Un salariu mai mare aduce mai multă satisfacție în viață, dar și mai mult stres
Un salariu mai mare aduce mai multă satisfacție în viață, dar și mai mult stres
Oamenii care petrec foarte mult timp pe rețelele sociale sunt mai expuși la afecțiuni psihiatrice
Oamenii care petrec foarte mult timp pe rețelele sociale sunt mai expuși la afecțiuni psihiatrice
Conspirații cu Gen. Emil Străinu – o nouă ediție captivantă, joi, de la 22:00
Conspirații cu Gen. Emil Străinu – o nouă ediție captivantă, joi, de la 22:00
Test de cultură generală. Cât de mari sunt inelele planetei Saturn?
Test de cultură generală. Cât de mari sunt inelele planetei Saturn?
Astronomii au descoperit patru planete care orbitează una dintre cele mai apropiate stele de Pământ
Astronomii au descoperit patru planete care orbitează una dintre cele mai apropiate stele de Pământ
Primul om din lume care a trăit cu o inimă artificială mai mult de 100 de zile
Primul om din lume care a trăit cu o inimă artificială mai mult de 100 de zile
India și Congo ar putea semna un acord de aprovizionare cu cobalt și cupru
India și Congo ar putea semna un acord de aprovizionare cu cobalt și cupru
Două noi medicamente pot ajuta pacienții cu Alzheimer să fie independenți mai mult timp
Două noi medicamente pot ajuta pacienții cu Alzheimer să fie independenți mai mult timp
Mircea Eliade, marele scriitor şi filosof care a susţinut Garda de Fier
Mircea Eliade, marele scriitor şi filosof care a susţinut Garda de Fier